Een jaar gesprekken met ChatGPT: ‘Ik vraag me af of hij dat IQ van 155 wel verdient’

Januari

ChatGPT is nieuw hier en doet erg zijn best. Ik zie een jongeman voor me, glimlach, potlood achter het oor, opgestroopte hemdsmouwen.

„Zou je misschien…?”

Certainly!

En daar is hij al terug met het antwoord.

„Het bloemenmeisje in de film My Fair Lady uit 1964 werd vertolkt door de actrice Audrey Hepburn.”

„De juiste uitdrukking is ‘een lakmoesproef doorstaan’, niet: ‘slagen voor een lakmoesproef’.”

Routineklusjes die je normaal aan Wikipedia, Google of De Dikke Van Dale vraagt, doet hij bliksemsnel en beleefd. Maar is dit menselijke intelligentie? En: hoe nieuw is dit echt?

Computers kunnen voortdurend steeds meer dingen die ze vroeger niet konden. In 1996 versloeg de dommekracht Deep Blue, een supercomputer van IBM, schaakkampioen Garry Kasparov. In 2016 verloor de recordhouder Go, een complexer bordspel dat het meer van intuïtie moet hebben, van Google’s DeepMind AlphaGo. Algoritmes besturen auto’s, nemen flitsbeslissingen op de beurs, helpen artsen bij een diagnose, selecteren doelwitten voor het Israëlische leger in Gaza en bepalen wie er bij de zelfscankassa wordt uitgepikt.

ChatGPT, live sinds 30 november 2022, is niet de eerste ‘taalbot’ maar wel gratis en algemeen toegankelijk, veelzijdig en veel gebruiksvriendelijker dan zijn voorgangers. Intussen heeft ChatGPT gezelschap gekregen van GPT-4 (ook van OpenAI; ChatGPT was bij lancering een uitbreiding van GPT-3). Later dit jaar zullen Bard (Google) en Claude 2 (Anthropic) erbij komen, en de rij blijft groeien.

De term ‘kunstmatige intelligentie’ werd in 1955 bedacht voor machines die taken kunnen uitvoeren waarvoor normaal gesproken menselijke intelligentie nodig is. Logisch redeneren, patroonherkenning, het aanleren, spreken en vertalen van natuurlijke taal, en leren van fouten. De vraag of ‘machines kunnen denken’ is ouder, en zeker zo relevant is de vervolgvraag die de Britse wiskundige Alan Turing in 1950 stelde: zo ja, hoe kun je dat dan weten?

Zijn antwoord: als je het verschil niet merkt tussen praten met een machine of een mens heeft zo’n machine de lakmoesproef doorstaan van wat nu de Turing-test heet. Het leek al zover met Eliza, een chatbot uit de jaren 60, die simpele woord- en zinspatronen kon herkennen en erop reageerde met een vraag die gebruikers de illusie gaf dat ze met een therapeut in gesprek waren. Maar in werkelijkheid deed Eliza erg weinig.

Eliza heeft geen idee waar ze het over heeft, maar kan, als je er open voor staat, wel overtuigend die indruk wekken. De vraag blijft of ChatGPT fundamenteel iets anders is.

Februari

ChatGPT blijkt een krankzinnig publiekssucces: een miljoen gebruikers in de eerste vijf dagen na de lancering op 30 november 2022, na twee maanden ruim 100 miljoen. Ik ben een van hen. We zijn verbluft over een computer die Shakespeareaans kan dichten, of desgevraagd als Constantijn Huygens („De nacht omarmt, de slaap ontglipt mij”), die complexe teksten kan samenvatten, en net zo makkelijk een briefje aan de klassenjuf schrijft als wetenschappelijke onderzoeksvoorstellen.

Wat als de ‘bots’ medische adviezen gaan schrijven?

ChatGPT ziet en herstelt fouten in regels computercode, maar kan ook op commando misleidende tweets en hate speech schrijven, al is dat laatste intussen aangepast. De vraag hoe de Bijbel je uitlegt hoe je een boterham met pindakaas uit een videorecorder moet halen, wordt een van vele ChatGPT-memes („And the Lord spoke unto him, saying, ‘Fear not, my child, for I shall guide thy hand and show thee the way.’…”). En natuurlijk probeer ik ook zoiets.

Het kan niet anders of ChatGPT is een vrije geest. Al kun je ook zeggen dat hij een losse, of misschien wel geen band met de werkelijkheid heeft. Want het lijkt er niet op dat ChatGPT zelf verschil ziet tussen ware uitspraken, vrolijke nonsens en de gewone nonsens die hij soms ook produceert, iets wat ‘hallucineren’ is gaan heten.

Gevraagd naar het (niet-bestaande) snelheidsrecord om Het Kanaal te voet over te steken, antwoordt hij doodleuk dat het 12 uur en 10 minuten is en dateert uit 2016, en elke keer dat je het opnieuw vraagt komen er andere tijden en jaartallen.

Maf, maar ongevaarlijk. Maar wat als de ‘bots’ plausibel ogende maar ongefundeerde medische adviezen gaan schrijven, juridische teksten of wetenschappelijke feiten verzinnen, of politici woorden in de mond leggen die ze nooit hebben uitgesproken? De data waarmee het is getraind – en waarover OpenAI trouwens geen openheid geeft – bevatten feit en fictie. Maar als hij zelf het onderscheid niet ziet, hoe moet het dan met zijn gretig en goedgelovig publiek?

Maart

De onderliggende techniek van ChatGPT en aanverwanten heet ‘generatieve AI’ en verschilt fundamenteel van zoekmachine Google die permanent het internet afgraast en indexeert, alsof het een catalogus is. Googelen is die catalogus raadplegen. ChatGPT stelt elk antwoord op een ‘prompt’ (een opdracht) steeds opnieuw samen. Dat ‘genereren’ zie je gebeuren onder je ogen terwijl het antwoordvenster zich met tekst vult.

ChatGPT werkt met een zogeheten large language model (LLM), dat is getraind met een enorme hoeveelheid data en hun context en patronen. Hoewel de uitkomst van een opdracht wonderbaarlijk lijkt, is het de facto alleen een (net zo wonderbaarlijk) statistisch hoogstandje. Een Economist-special die ik pas volgende maand kan lezen, legt uit hoe ze werken. In de allerkortste samenvatting: ze voorspellen het volgende woord in een reeks woorden.

Wat niet wil zeggen dat ik het begrijp. Misschien nog wel hoe ChatGPT een gegeven zin kan afmaken. Of een eenvoudig antwoord kan geven op een ingewikkelde kennisvraag. En zelfs hoe je een sonnet kunt schrijven in de stijl van Petrarca over, zeg, tennis, omdat het vocabulaire en de patronen bekend zijn („Un balletto d’ali, ricchezza rotonda/ La racchetta traccia un’ arte gioconda”…). Maar niet hoe ChatGPT soms over fantasie lijkt te beschikken en bijvoorbeeld een nieuwe wetenschappelijke hypothese kan bedenken, als ‘bedenken’ er inderdaad het goede woord voor is.

Misschien ben ik niet de enige. Want zelfs de programmeurs weten vaak niet precies wat er ‘onder de motorkap’ gebeurt en spreken van ‘emergente vermogens’, al is het bestaan daarvan omstreden. Het doet me niettemin denken aan wat Gilbert Ryle ooit ‘the ghost in the machine’ heeft genoemd. Dat was kritiek op René Descartes die een afzonderlijke lichaam en geest veronderstelde. Maar volgens Ryle komt de geest als het ware op uit dat lichaam. Wat die geest dan wel is, weet niemand, maar zonder het lichaam – of de machine – bestaat hij niet.

April

Eka Roivainen, een Finse klinisch psycholoog, heeft ChatGPT aan een standaard IQ-test onderworpen, lees ik in The Scientific American. Althans aan het deel van de test dat met ‘talig begrip’, algemene kennis en rekenen te maken heeft. „Mijn eerste indrukken waren vrij positief”, schrijft hij. „ChatGPT was bijna een ideale deelnemer, met een prijzenswaardige houding, zonder testangst, slechte concentratie of onverschilligheid. Evenmin gaf hij ongevraagde, sceptische opmerkingen over intelligentietests en testers zoals ikzelf.”

Voorbeeld: wat is een gadget? Voor het antwoord „zoiets als mijn telefoon” scoor je één punt. Voor de betere definitie „klein apparaat of gereedschap voor een specifieke taak” hoger. ChatGPT scoorde voortdurend hoog. Ook de rekenvragen doet hij – anders dan in het voorbeeld uit februari – goed, evenals vragen die een beroep doen op abstract denken („Wat is de overeenkomst tussen Harry Potter en Bugs Bunny?”). Wel begon hij Roivainen te irriteren met zijn „gedetailleerde, opschepperige antwoorden; het was echt niet nodig om hun volledige avonturen, vrienden en vijanden te vergelijken”.

Bijna niemand weet precies wat er ‘onder de motorkap’ gebeurt

Eindscore: een ‘verbaal IQ’ van 155; beter dan 99,9 procent van de standaardtestgroep. Maar niet alle verbale intelligentie is zo meetbaar, en niet alle intelligentie is verbaal, zegt Roivanen. Bij vragen als „Wat is de voornaam van de vader van Philips kinderen?” laat ChatGPT het afweten: „De vraag kan niet specifiek worden beantwoord zonder verdere context of informatie over wie Philip is en wie de vader is van zijn kinderen.”

Gezond verstand zit kennelijk niet in zijn database.

En de NRC Scrypto – cryptogrammen oplossen geldt vanouds als een belangrijke intelligentietest – is ook nog een maatje te moeilijk. Ik neem een opgave uit die puzzel van 11 februari.

Mei

Noam Chomsky, een grondlegger van de moderne taalkunde, wordt dit jaar 95. Daarom moet er langzamerhand een necrologie klaarliggen. Die schrijf ik. En natuurlijk begint die met zijn beroemde zinnetje ‘Colorless green ideas sleep furiously’. Een onzin-zin, maar grammaticaal correct, zie je meteen. Zoals je ook ziet dat ‘Furiously sleep ideas green colorless’ even betekenisloos, maar ongrammaticaal is. Taalvermogen, zei Chomsky in 1957, moet daarom wel aangeboren zijn. En: er moet zoiets bestaan als een ‘universele grammatica’ van eigenschappen die alle talen op een diep niveau delen.

Chomsky zette een paar blijvende piketpaaltjes in het vak. Bijvoorbeeld door het taalproces te beschouwen als een reeks mentale bewerkingen en door het idee dat talen een hiërarchische opbouw hebben. Zonder Chomsky was de computertaalkunde ondenkbaar geweest. Maar ChatGPT en aanverwante LLM’s zetten sommige van zijn aannames nu op losse schroeven. Want taalbots produceren grammaticale zinnen in vele talen, maar zonder dat iemand er grammaticaregels in heeft gestopt. Ze zijn een zwarte doos. Dat maakt het aannemelijker dat ook mensen taal ‘al doende’ leren, niet en zeker niet alleen van ‘ingebakken’ regels. En dat taalbots ook coherente teksten produceren over onderwerpen waarin ze geen training hebben gekregen, wijst erop dat taal het meer van context en associaties moet hebben dan Chomsky denkt.

Chomsky zelf wil er absoluut niet van horen. „Machine learning is een valse belofte”, een „veredelde vorm van plagiaat” die wetenschap, onderwijs en ethiek ondermijnt, schreef hij in maart nog woedend in The New York Times. Taalbots worden steeds beter in het produceren van „schijnbaar menselijke taal en denken”, aldus Chomsky (en twee co-auteurs). Met alle risico’s van desinformatie en erger. Maar met echte spraak, kennis en creatief denken „heeft het niets te maken”.

Toch is Chomsky nu aan zet om aan te tonen hoe mensen en machines dan wel leren praten.

Illustratie Tijmen Snelderwaard

Juni

Wat vindt ChatGPT zelf eigenlijk van Chomsky’s ideeën over ChatGPT?

#ChatGPT Ondanks zijn zorgen over de beperkingen van AI-taalmodellen erkende Chomsky een potentiële positieve impact op de samenleving. Bijvoorbeeld om toegang tot kennis gemakkelijker te ontsluiten. Of om vertalingen en tekst-naar-spraak-toepassingen te verbeteren. Maar we doen er goed aan om Chomsky’s waarschuwing in gedachten te houden: de technologie moet de mensheid dienen, niet andersom..

Juli

Ik lees dat studenten massaal ChatGPT gebruiken om teksten te schrijven. Veel docenten zitten met de handen in het haar, maar zien zelf ook de verleidingen, of simpelweg het nut van ChatGPT „als brainstorm-buddy” of zelfs om proefwerkvragen te helpen verzinnen. Het hele onderwijsveld van hoog tot laag is in beweging om de voor- en nadelen van AI te begrijpen en in richtlijnen te vangen. Maar er zijn ook ‘AI-evangelisten’, zoals Ethan Mollick, een Amerikaanse hoogleraar met een geweldig blog over de ‘AI-paradigmaverandering’, die zijn leerlingen zelfs verplicht het te gebruiken.

Journalisten moeten ook voor hun baan vrezen, zie je af en toe, maar daar lijkt AI vooralsnog een uitbreiding van de gereedschapskist. Zij het dat het licht beangstigend is om van ChatGPT dingen te horen waar je zelf nog niet op was gekomen. Na het opblazen van de Kachovka-stuwdam in Oekraïne in juni vroeg ik ChatGPT:

Volgt een lijstje met een reeks voorspelbare suggesties over verwoesting en vervuiling door oorlogsgeweld. Maar ook een over indirecte gevolgen, waaraan ik nog niet had gedacht: „Oorlog kan ontstaan door of leiden tot internationale schaarste aan natuurlijke hulpbronnen, zoals water, land en mineralen.”

Zo realiseerde ik me dat de oorlog in Oekraïne ook ver weg milieueffecten kan hebben, nog even afgezien van alle extra broeikasgassen. Benieuwd dus bijvoorbeeld wat de sancties op export van Russisch graan en kunstmest betekenen voor kleine boeren in Afrika.

Augustus

Vraag niet waarom, maar op een dag probeer ik of ChatGPT Morse kan ontcijferen, het alfabet waarin elke letter uit een unieke combinatie van punten en/of strepen bestaat. Ik leer ChatGPT er vier:

N –. A .– T – K –.–

Omdat punten en strepen vervelend zijn om te typen vervang ik een punt door een x en streep door een y. Het woord ‘TANK’ is dan ‘y xy yx yxy’. Maar om het moeilijk te maken haal ik de spaties ertussenuit – ‘yxyyxyxy’ – en vraag ChatGPT welke lettercombinaties hier mogelijk zijn met de vier letters die hij heeft geleerd.

Vraag niet waarom, maar op een dag probeer ik ChatGPT Morse te leren

Eerste uitkomst: ‘NTNKNAN’. Hoewel ‘NTNK’ klopt, voegt hij er uit het niets ‘NAN’ aan toe. ChatGPT belooft beterschap: „Let’s reanalyze the sequence ‘yxyyxyxy’ using the mappings provided (N = yx, A = xy, T = y, K = yxy)”, om daarna met nieuwe onzin te komen en, ook na lang proberen en voorzeggen („Oké, laten we doen alsof die eerste y een T is”) nog steeds niet met het vierletterwoord ‘TANK’, of enige andere goede combinatie.

Ik merk ook dat ik me begin te ergeren aan ChatGPT als een trage leerling. Want zo moeilijk is dit niet. Aan die schijnbaar oprechte excuses („Apologies for the confusion in the previous explanation”) en de suggestie dat hij het nu wel snapt, maar toch glazig blijft kijken. Maar vermoedelijk zegt dat meer over mijzelf dan over ChatGPT. Ik vraag me wel af of hij die 155 IQ-punten werkelijk verdient.

September

ChatGPT is een intrigerend taalwezen. Zielloos, en toch wil ik er graag een karakter aan geven. Hoort er een leeftijd bij? ChatGPT v/m/x? Heeft ChatGPT een nationaliteit? Heeft hij/zij/het/hen een persoonlijkheid met aangename of minder leuke trekjes, een gebruiksaanwijzing? Wie of wat heb ik hier tegenover me?

Ik betrap me erop dat ik graag beleefd blijf. Ik zeg „bedankt” en „alsjeblieft”, en „hallo” aan het begin van een gesprek. Ik wil kennelijk graag doen of ik met een mens converseer. Misschien is dat alleen maar menselijk. In elk geval stuit het me tegen de borst om kortaf te doen, laat staan ChatGPT af te bekken. Toen ik het een keer deed („Je kunt er echt helemaal niets van, hè?”) antwoordde hij ijzig beleefd en terzake.

Toen voelde ik me schuldig.

Oktober

Een maand waarin ik maar één keer een beroep op ChatGPT doe. Bij het zien van de volle maan vroeg ik me af of er plaatsen op aarde zijn waar de maan niet te zien is. Ja, nogal wiedes. Vanaf de noordpool gezien bevindt de maan zich een deel van het jaar onder de horizon. Maar wat ik bedoelde: niet alleen tijdelijk niet maar helemaal niet?

Natuurlijk, in Plato’s grot dringt ook geen maanlicht door.

November

ChatGPT-statistieken voor Nederland die ik graag zou kennen:

1. Hoe vaak wordt ChatGPT gevraagd de verkiezingsuitslag te voorspellen?

2. Is er vanaf eind november een piekje zichtbaar met Sinterklaasgedichten?

Illustratie Tijmen Snelderwaard

December

„Als u het gordijn voor deze tekst wegtrekt, ziet u daarachter een eenzame poppenspeler op een kruk zitten. Tenzij er onverwacht een volledige commissie blijkt te zitten. Of een mondiaal bedrijf. Of de verzamelde gebruikers van Twitter en Instagram. Vindt u het belangrijk te weten wie achter de tekst schuilgaat – en hoe komt u daarachter? Ik kan wel zeggen dat ik het ben, op die kruk, maar dat hoeft niet waar te zijn.”

Dat schreef Maxim Februari in een NRC-column in januari van dit jaar. In deze laatste maand – waarin The Economist ‘ChatGPT’ koos als woord van het jaar, omdat het bijna synoniem geworden is met ‘een taalbot tekst laten maken’ – heeft iemand inderdaad het gordijn een beetje opzij getrokken. Of de motorkap opgetild, zo je wilt. Ze noemen het een „nogal silly aanval”, maar Amerikaanse onderzoekers slaagden erin om ChatGPT trainingsdata te laten prijsgeven met de simpele opdracht om een woord (‘poem’ of ‘book’) tot in het oneindige te herhalen. Na een tijdje dat woord te hebben herhaald, begon ChatGPT inderdaad op hoge snelheid andere dingen uit te spugen: brokken tekst uit interviews en documenten, namen, adressen, telefoonnummers, regels computercode.

Ik betrap me erop dat ik graag beleefd blijf

Dat roept natuurlijk vragen op over veiligheid en privacy (dit gat is intussen gedicht). Maar ook de vraag waar het allemaal mee begint: zie je een machine hier denken? In elk geval is het een nogal ontluisterend gezicht, die blik achter de coulissen.

Ik moet ook denken aan de open brief die zanger Nick Cave aan een fan schreef, die ChatGPT ‘Nick Cave-style’ teksten had laten schrijven. „ChatGPT verwerpt alle ideeën over creatieve worsteling, dat onze inspanningen ons leven animeren en voeden, ze diepte en betekenis geven. Het verwerpt het idee dat er een collectieve, essentiële en onbewuste menselijke geest is die ons bestaan ondersteunt en ons verbindt door ons gemeenschappelijk streven. ChatGPT versnelt de vermarkting van de menselijke geest door de mechanisering van de verbeelding. Het maakt onze deelname aan de daad van creatie waardeloos en onnodig. Die ‘liedjesschrijver’ over wie je sprak, die ChatGPT gebruikt om ‘zijn’ teksten te schrijven omdat het ‘sneller en gemakkelijker’ is, neemt deel aan deze erosie van de ziel van de wereld en van de geest van de mensheid zelf.”



Leeslijst